Modelado de recompensas escalable con rúbricas aumentadas a partir de preferencias binarias en C2 Modelado de recompensas con rúbricas ampliadas en preferencias binarias. Descubre cómo optimizar la evaluación de desempeño con este innovador enfoque. 2026-04-16 · 2 min